حل مسئله ردیابی بهینه سیستم های دینامیکی زمان-گسسته خطی با دینامیک نامعین به کمک یادگیری تقویتی

پایان نامه
چکیده

یادگیری تقویتی به طور گسترده و موفقیت آمیزی برای حل مسائل کنترل بهینه تنظیم سیستم های دارای دینامیک نا معین بکار گرفته شده است. با این حال، به دلیل اینکه در روش های موجود حل مسئله ردیابی بهینه، برای بدست آوردن قسمت پیشرو ورودی کنترلی دینامیک کامل سیستم نیاز هست، روش های یادگیری تقویتی به طور مستقیم قابل اعمال برای مسئله ردیابی بهینه سیستم های دارای دینامیک نامعین نمی باشند. در این پایان نامه رویکردی متفاوت برای حل مسئله ردیابی بهینه سیستم های دینامیکی زمان-گسسته خطی با استفاده از یادگیری تقویتی ارائه شده است. ابتدا با استفاده از دینامیک سیستم و دینامیک ورودی مرجع، یک سیستم دینامیکی افزوده تعریف شده است. بر اساس سیستم افزوده معرفی شده، یک تابعی معیار با ضریب تنزیل برای مسئله کنترل بهینه ردیابی معرفی شده است. نشان داده شده است که برای یافتن پاسخ بهینه، در فرمول بندی ارائه شده تنها نیاز به حل یک معادله جبری ریکاتی افزوده می باشد و پاسخ کنترلی حاصل از حل این معادله شامل هر دو قسمت پیشرو و پسخور ورودی کنترلی می باشد. بنابراین می توان از روش های یادگیری تقویتی برای حل مسئله پیش رو برای سیستم های دارای عدم قطعیت بهره گرفت. با توجه با این خصوصیت، ابتدا مسئله ردیابی بهینه به صورت بر خط برای سیستم های با دینامیک نیمه معین با استفاده از شبکه عصبی فعال-نقاد حل شده است. سپس مسئله ردیابی بهینه به کمک الگوریتم q-learning به صورت بر خط برای سیستم ها با دینامیک کاملا نامعین حل شده است. در نهایت، از آنجائی که در عمل حالات سیسستم ممکن است در دسترس نباشند، مسئله ردیابی به صورت بر خط برای سیستم های با دینامیک کاملا ناشناخته و بدون نیاز به اندازه گیری حالات سیستم تنها با اندازه گیری داده های ورودی و خروجی و ورودی مرجع حل شده است.

منابع مشابه

حل برخط بازی های دیفرانسیلی افق نامحدود برای سیستم های دینامیک-نامعین زمان-پیوسته با استفاده از الگوریتم های یادگیری تقویتی

بازیهای دیفرانسیلی امروزه کاربردهای گسترده در زمینه های مختلف از جمله سیستمهای مخابرات بیسیم و شبکه، سیستمهای اقتصادی و راهبرد های دفاعی یافته اند. حل بازیهای دیفرانسیلی تکیه بر حل معادلات همیلتون-جاکوبی دارد. حل این معادلات در حالت غیرخطی بسیار مشکل بوده و ممکن است حتی در موارد ساده فاقد حل تحلیلی سرتاسری باشند. اکثر روش¬های ارائه شده برای حل این معادلات، روشهای تقریبی برون خطی هستند که در آنه...

کنترل بهینه توزیع شده بازی های گرافی دیفرانسیلی غیر خطی به صورت برخط با استفاده از یادگیری تقویتی

این مقاله به معرفی بازی های گرافی دیفرانسیلی برای سیستم های چند عاملی غیر خطی زمان پیوسته می پردازد و یک روش بهینه توزیع شده برخط برای حل آنها پیشنهاد می کند. در بازی های گرافی دیفرانسیلی، دینامیک خطا و اندیس عملکرد هر بازیکن تنها بستگی به اطلاعات همسایگان محلی آن عامل دارد. الگوریتم تکرار سیاست توزیع شده پیشنهاد شده، حل تقریبی معادلات همیلتون-جاکوبی کوپل شده همکارانه متعلق به عامل های غیر خطی...

متن کامل

توسعه ایده های یادگیری تقویتی گسسته در یادگیری تقویتی پیوسته برای سیستم های چند عامله

در جهان پیچیده امروز برای انجام کارهای متفاوت گاهی توانایی یک فرد کافی نیست و مشارکت و همکاری افراد نیاز است. در دنیای کامپیوتر نیز سیستم های چند عامله متشکل از تعدادی عامل است که با یکدیگر در یک محیط در تعاملند. این سیستم ها ویژگی های خاصی دارند، از جلمه خود مختاری، عدم دسترسی به اطلاعات سراسری و به اشتراک گذاری دانش. در این سیستم ها تغییرات محیط وابسته به ترکیب عمل تولید شده از همه عامل ها می...

15 صفحه اول

حل دستگاه معادلات خطی به کمک بهینه سازی

درریاضیات کاربردی، به ویژه تعیین جواب تقریبی برای معادلات انتگرال و معادلات دیفرانسیل معمولی و پاره ای، به مسائلی برخورد می کنیم که گر چه از نظر تئوری دارای جواب یکتا هستند ولی در عمل، با گسسته سازی آنها، جوابهای عددی زیادی برای مسأله به دست می آید. در چنین مواردی باید به طریقی از بین جوابهای تقریبی آن را که به جواب واقعی نزدیکتراست انتخاب کرد. مسائل بد وضع دارای ویژگی فوق هستند. متأسفانه مدل ر...

متن کامل

کنترل بهینه توزیع شده بازی های گرافی دیفرانسیلی غیر خطی به صورت برخط با استفاده از یادگیری تقویتی

این مقاله به معرفی بازی های گرافی دیفرانسیلی برای سیستم های چند عاملی غیر خطی زمان پیوسته می پردازد و یک روش بهینه توزیع شده برخط برای حل آنها پیشنهاد می کند. در بازی های گرافی دیفرانسیلی، دینامیک خطا و اندیس عملکرد هر بازیکن تنها بستگی به اطلاعات همسایگان محلی آن عامل دارد. الگوریتم تکرار سیاست توزیع شده پیشنهاد شده، حل تقریبی معادلات همیلتون-جاکوبی کوپل شده همکارانه متعلق به عامل های غیر خطی ...

متن کامل

اثربخشی آموزش حل مسئله ریاضی با روش بازی بر انگیزش درونی حل مسئله در دانش‌آموزان مبتلا به اختلال یادگیری ریاضی

یکی از مشکلات دانش‌آموزان مبتلا به اختلال یادگیری ریاضی کمبود یا عدم انگیزش برای حل مسئله ریاضی است. هدف پژوهش حاضر بررسی اثربخشی آموزش حل مسئله ریاضی با روش بازی بر انگیزش درونی حل مسئله در دانش‌آموزان مبتلا به اختلال یاد گیری ریاضی بود. روش پژوهش آزمایشی با طرح پس آزمون با گروه گواه بود. جامعه  این مطالعه  شامل تمام دانش‌آموزان دختر و پسر مبتلا به اختلال یادگیری ریاضی شهر تربت حیدریه در سال ت...

متن کامل

منابع من

با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ذخیره در منابع من قبلا به منابع من ذحیره شده

{@ msg_add @}


نوع سند: پایان نامه

وزارت علوم، تحقیقات و فناوری - دانشگاه فردوسی مشهد - دانشکده مهندسی

میزبانی شده توسط پلتفرم ابری doprax.com

copyright © 2015-2023